La validez de la prueba es la medida en que una prueba (como una prueba química, física o escolar) mide con precisión lo que se supone que debe medir. En los campos de las pruebas psicológicas y las pruebas educativas, "la validez se refiere al grado en que la evidencia y la teoría respaldan las interpretaciones de los puntajes de las pruebas que conllevan los usos propuestos de las pruebas".[1] Aunque los modelos clásicos dividen el concepto en varias "validaciones" (como la validez de contenido, la validez de criterio y la validez de constructo),[2] la visión dominante actual es que la validez es una construcción unitaria única.[3]
La validez generalmente se considera el tema más importante en las pruebas psicológicas y educativas[4] porque se refiere al significado otorgado a los resultados de las pruebas.[3] Aunque muchos libros de texto presentan la validez como una construcción estática,[5] varios modelos de validez han evolucionado desde las primeras recomendaciones publicadas para construir pruebas psicológicas y educativas.[6] Estos modelos se pueden clasificar en dos grupos principales: modelos clásicos, que incluyen varios tipos de validez, y modelos modernos, que presentan la validez como una sola construcción. Los modelos modernos reorganizan las "validaciones" clásicas en "aspectos" de validez[3] o "tipos" de evidencia que respalda la validez.[1]
La validez de la prueba se puede probar / validar utilizando pruebas de confiabilidad entre evaluadores, confiabilidad dentro del evaluador, repetibilidad (confiabilidad de prueba-prueba) y otros rasgos, generalmente a través de múltiples ejecuciones de la prueba cuyos resultados se comparan. El análisis estadístico ayuda a determinar si las diferencias entre los diversos resultados son lo suficientemente grandes como para ser un problema o son aceptablemente pequeñas.